185 research outputs found

    Real-Time Siamese Multiple Object Tracker with Enhanced Proposals

    Full text link
    Maintaining the identity of multiple objects in real-time video is a challenging task, as it is not always feasible to run a detector on every frame. Thus, motion estimation systems are often employed, which either do not scale well with the number of targets or produce features with limited semantic information. To solve the aforementioned problems and allow the tracking of dozens of arbitrary objects in real-time, we propose SiamMOTION. SiamMOTION includes a novel proposal engine that produces quality features through an attention mechanism and a region-of-interest extractor fed by an inertia module and powered by a feature pyramid network. Finally, the extracted tensors enter a comparison head that efficiently matches pairs of exemplars and search areas, generating quality predictions via a pairwise depthwise region proposal network and a multi-object penalization module. SiamMOTION has been validated on five public benchmarks, achieving leading performance against current state-of-the-art trackers. Code available at: https://github.com/lorenzovaquero/SiamMOTIONComment: Accepted at Pattern Recognition. Code available at https://github.com/lorenzovaquero/SiamMOTIO

    Tracking visual de mútiples objetos con redes convolucionales profundas

    Get PDF
    Traballo de Fin de Máster Universitario en Tecnoloxías de Análises de Datos Masivos: Big Data. Curso 2018-2019El tracking visual de objetos posee un gran interés en multitud de aplicaciones como la robótica o la videovigilancia. No obstante, mientras que estos campos demandan sistemas capaces de seguir múltiples objetos en tiempo real, gran parte de la investigación en visión por computador se centra en el tracking de un único elemento. Como respuesta a esta necesidad, en este artículo se presenta la arquitectura de un sistema capaz de aplicar eficientemente técnicas de tracking individual a múltiples objetos en tiempo real. Para esto, se propone la extracción global de las características del fotograma mediante una red neuronal convolucional, seguida de un recorte de las distintas áreas de búsqueda de los objetos. La operación de similaridad entre las citadas áreas de búsqueda y la referencia de los objetos a seguir se puede llevar a cabo tanto con una correlación cruzada como mediante una subred de propuestas de regiones. El sistema propuesto ha sido evaluado en distintos conjuntos de datos, reportando tasas de precisión y robustez muy competitivas a la par que alcanza velocidades superiores a las de cualquier otro tracker de múltiples objetos basado en aprendizaje profund

    La estimulación del lenguaje oral a través de la narración oral de cuentos: un proyecto para el aula de Educación Infantil

    Get PDF
    Este trabajo pretende mostrar la importancia del desarrollo del lenguaje oral en la etapa de Educación Infantil. Durante esta etapa educativa es el momento en el que la lengua oral se desarrolla de manera más significativa en todos sus niveles: fonológico, léxico-semántico, morfosintáctico y pragmático; y por ello es fundamental un tratamiento específico desde las aulas de Educación Infantil. Uno de los principales recursos que permiten estimular el desarrollo oral del lenguaje son los cuentos. Por este motivo se ha elaborado un proyecto de intervención para el desarrollo del lenguaje oral partiendo de una adaptación de la obra de Don Quijote de la Mancha.Grado en Educación Infanti

    Sistema de tracking visual de objetos mediante técnicas de aprendizaje profundo

    Get PDF
    Traballo Fin de Grao en Enxeñaría Informática. Curso 2017-2018La identificación de los elementos que conforman una imagen resulta una tarea sencilla para los seres humanos. A diario, somos capaces de detectar los objetos que se encuentran a nuestro alrededor y de percibirlos de manera física, atribuyéndoles un significado a los fotones que llegan a nuestras retinas. Esta tarea que a las personas nos resulta inmediata, posee en realidad una enorme complejidad, especialmente en la última etapa de todas, la de la interpretación. Es por este motivo que este proceso tan complicado de emular por una máquina ha sido estudiado profundamente durante las últimas décadas. Con la finalidad de dotar a un sistema informático con la capacidad de adquirir, procesar, analizar y comprender las imágenes del mundo real para producir información numérica o simbólica que pueda ser tratada, surge la disciplina científica de la visión por computador. Existen numerosas aplicaciones dentro del ámbito de la visión por computador, de entre las cuales es posible destacar la del seguimiento de objetos, núcleo del Trabajo Final de Grado (TFG) realizado. Este tracking visual de objetos es aplicado sobre un vídeo, y hace posible mantener la identidad de diferentes elementos detectados a lo largo de los fotogramas del mismo. Al mantener la identidad de todos los elementos detectados, mediante el tracking se hace posible no sólo conocer que regiones de una imagen se corresponden con un objeto (reconocimiento), sino incorporar una dimensión adicional, la del tiempo, para así detectar trayectorias, cambios de forma y comportamientos a lo largo de un vídeo. Esta mayor comprensión de lo captado en un vídeo hace posible que los sistemas informáticos realicen un gran número de tareas que antaño se consideraban impensables para una máquina. Desde labores rutinarias como el conteo de personas hasta tareas que requieran de una rigurosa precisión, como el seguimiento de vehículos desde UAV. Todas ellas son susceptibles de ser realizadas por un sistema informático con una gran velocidad, eficiencia y exactitud. De esta forma, este sería el punto en torno al cual gire el presente Trabajo Final de Grado, buscando desarrollar un sistema de tracking visual que facilite la automatización de procesos, y el desarrollo de aplicaciones integradas en tiempo real

    Información, codificación y malabares: Claude E. Shannon

    Get PDF
    El año pasado, se conmemoró el centenario del nacimiento del matemático Claude Elwood Shannon (1916-2001), conocido por ser considerado el \Padre de la Teoría de la Información", siendo de esta forma una de las mentes más influyentes del siglo XX. Con este Trabajo, se plantea sumarnos a la conmemoración hacia esta mente brillante, siendo el objetivo del trabajo la revisión e investigación en algunos de los modelos y resultados de Shannon, así como proporcionar una versión actual de las teorías y resultados matemáticos que expondremos.Grado en Matemática

    Propuesta de inclusión de contenidos de Teoría de Números y Matemática Discreta en la Enseñanza Secundaria con un enfoque visual

    Get PDF
    En este trabajo, se realiza una propuesta de inclusión de contenidos relativos a la Teoría de Números y las Matemáticas Discretas; en concreto las congruencias, la Teoría de Grafos y los números figurados; en la enseñanza secundaria. Para ello, se ofrece un marco teórico que engloba los beneficios y características de su inclusión, junto a diferentes capítulos que analizan los diferentes contenidos así como contienen actividades y recursos visuales para su implementación.Departamento de Didáctica de las Ciencias Sociales y ExperimentalesMáster en Profesor de Educación Secundaria Obligatoria y Bachillerato, Formación Profesional y Enseñanzas de Idioma

    Depth Estimation and Image Restoration by Deep Learning from Defocused Images

    Full text link
    Monocular depth estimation and image deblurring are two fundamental tasks in computer vision, given their crucial role in understanding 3D scenes. Performing any of them by relying on a single image is an ill-posed problem. The recent advances in the field of Deep Convolutional Neural Networks (DNNs) have revolutionized many tasks in computer vision, including depth estimation and image deblurring. When it comes to using defocused images, the depth estimation and the recovery of the All-in-Focus (Aif) image become related problems due to defocus physics. Despite this, most of the existing models treat them separately. There are, however, recent models that solve these problems simultaneously by concatenating two networks in a sequence to first estimate the depth or defocus map and then reconstruct the focused image based on it. We propose a DNN that solves the depth estimation and image deblurring in parallel. Our Two-headed Depth Estimation and Deblurring Network (2HDED:NET) extends a conventional Depth from Defocus (DFD) networks with a deblurring branch that shares the same encoder as the depth branch. The proposed method has been successfully tested on two benchmarks, one for indoor and the other for outdoor scenes: NYU-v2 and Make3D. Extensive experiments with 2HDED:NET on these benchmarks have demonstrated superior or close performances to those of the state-of-the-art models for depth estimation and image deblurring

    Tracking more than 100 arbitrary objects at 25 FPS through deep learning

    Get PDF
    Most video analytics applications rely on object detectors to localize objects in frames. However, when real-time is a requirement, running the detector at all the frames is usually not possible. This is somewhat circumvented by instantiating visual object trackers between detector calls, but this does not scale with the number of objects. To tackle this problem, we present SiamMT, a new deep learning multiple visual object tracking solution that applies single-object tracking principles to multiple arbitrary objects in real-time. To achieve this, SiamMT reuses feature computations, implements a novel crop-and-resize operator, and defines a new and efficient pairwise similarity operator. SiamMT naturally scales up to several dozens of targets, reaching 25 fps with 122 simultaneous objects for VGA videos, or up to 100 simultaneous objects in HD720 video. SiamMT has been validated on five large real-time benchmarks, achieving leading performance against current state-of-the-art trackersThis research was partially funded by the Spanish Ministerio de Ciencia e Innovación [grant numbers PID2020-112623GB-I00, RTI2018-097088-B-C32], and the Galician Consellería de Cultura, Educación e Universidade [grant numbers ED431C 2018/29, ED431C 2017/69, accreditation 2016–2019, ED431G/08]. These grants are co-funded by the European Regional Development Fund (ERDF). Lorenzo Vaquero is supported by the Spanish Ministerio de Universidades under the FPU national plan (FPU18/03174)S

    Real-time siamese multiple object tracker with enhanced proposals

    Get PDF
    Maintaining the identity of multiple objects in real-time video is a challenging task, as it is not always feasible to run a detector on every frame. Thus, motion estimation systems are often employed, which either do not scale well with the number of targets or produce features with limited semantic information. To solve the aforementioned problems and allow the tracking of dozens of arbitrary objects in real-time, we propose SiamMOTION. SiamMOTION includes a novel proposal engine that produces quality features through an attention mechanism and a region-of-interest extractor fed by an inertia module and powered by a feature pyramid network. Finally, the extracted tensors enter a comparison head that efficiently matches pairs of exemplars and search areas, generating quality predictions via a pairwise depthwise region proposal network and a multi-object penalization module. SiamMOTION has been validated on five public benchmarks, achieving leading performance against current state-of-the-art trackers. Code available at: https://www.github.com/lorenzovaquero/SiamMOTIONThis research was partially funded by the Spanish Ministerio de Ciencia e Innovación [grant numbers PID2020-112623GB-I00, RTI2018-097088-B-C32], and the Galician Consellería de Cultura, Educación e Universidade [grant numbers ED431C 2018/29, ED431C 2021/048, ED431G 2019/04]. These grants are co-funded by the European Regional Development Fund (ERDF). Lorenzo Vaquero is supported by the Spanish Ministerio de Universidades under the FPU national plan (FPU18/03174). We also gratefully acknowledge the support of NVIDIA Corporation for hardware donations used for this researchS
    corecore